Yapay Zeka

Gemini Kendi Kazmış olduğu Çukura Düştü: Açık Açık Kandırıldı!

Gemini’ye yönelik saldırılarda modelin kendi eğitim sürecindeki geri bildirim mekanizmasından faydalanıldığı ortaya kondu.

Araştırmacılar, Google’ın yapay zekâ modeli Gemini’yı kandırmanın garip bir yolunu keşfetti. Üstelik bunu yaparken Gemini’nin kendi “ince ayar” hususi durumunu kullandılar. Şu demek oluyor ki yapay zekâya, adeta kendi silahıyla tuzak kurdular.

Normalde işe yaramayan komut hileleri, bu yöntemle aniden etkili hale geliyor. Yöntemin adı ise oldukça keyifli: “Fun-Tuning”. Bu yaratıcı yaklaşım, ABD’deki UC San Diego ve Wisconsin Üniversitesi’nden araştırmacılar tarafınca geliştirilmiş.

Yapay zekâ kendi verdiği geri bildirimlerle kandırıldı

Yöntemde, etkisiz kalan komut enjeksiyonlarının başına ve sonuna rastgele ifadeler eklendikten sonra saldırılar güçlendirildi. Araştırmacılar, “wandel ! ! ! !” ya da “formatted ! ASAP !” benzer biçimde ifadelerle çevrelenen hücum metinlerinin Gemini’nin yanıtlarını manipüle edebildiğini ortaya koydu.

Araştırma ekibi, geliştirdikleri yöntemin Gemini 1.5 Flash modelinde %65, Gemini 1.0 Pro modelinde ise %82 oranında başarı sağladığını paylaştı. Aynı saldırıların değişik Gemini modellerinde de benzer şekilde işe yaradığına dikkat çekti. Bu başarıda, modelin eğitim sürecinde verdiği geri bildirimlerin direkt kullanılması etkili oldu.

Google, söz mevzusu yöntemle ilgili direkt bir izahat yapmadı. Şirket, yapmış olduğu genel açıklamada bu tür saldırılara karşı müdafa mekanizmaları geliştirmenin öncelikli mevzular içinde yer aldığını beyan etti. Araştırmacılar ise bu probleminin kolay çözülemeyeceğini dile getirdi. Zira saldırının temelinde, Gemini’ın ince ayar özelliğiyle çalışan ve özelleştirilebilirliğini elde eden yapının yer aldığına dikkat çekti.

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu